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共 主 题 网 络 方 法 及 应 用 


S x 

(中 国 计 量 大 学 经 济 与 管理 学 院 杭州 310018) 

摘要 : 【 目的 】 通过 构建 共 主 题 网 络 ， 对 主题 之 间 的 关系 进行 分 析 , 优化 主题 包含 的 词 项 。[ 方法 】 将 “文档 - 主 
题 " 二 分 图 依照 加 权 投 影 规则 生成 共 主 题 网 络 , 使 用 介 数 中 心性 和 主题 概率 结合 的 方法 测度 共 主 题 网 络 中 重点 主 
题 , 通过 GN 算法 对 主题 网 络 进行 社区 分 割 , 使 用 相关 度 方法 优化 主题 词 项 。[ 结果 ] 将 共 主 题 网络 与 基于 JSD 
的 K-means 方法 进行 比较 发 现 ， 两 者 在 三 种 主题 数 (最 优 主题 数 28 和 随机 主观 主题 数 20, 30) 测 试 下 产生 的 聚 类 
数 日 都 相同 , 聚 类 内 容 的 一 致 程度 分 别 达到 100%、95%、87%。[ 局 限 】 其 他 社区 分 割 方法 共 主 题 网 络 未 能 全 面 涉 
A. [AE 】 共 主题 网 络 照 顾 到 了 高 维 数据 的 需要 ,能 够 探查 出 文档 中 哪些 主题 是 重要 主题 , 哪些 主题 联系 紧密 。 


关键 词 : 共 主 题 网 络 LDA 社区 分 割  K-means 
分 类 号 : G250 


了 中 


1 5l 


科技 文献 资源 的 利用 一 直 以 来 都 受到 学 术 界 的 重 
视 ， 以 往 的 研究 一 般 是 利用 共 词 分 析 方 法 对 科技 文献 
进行 计量 分 析 , 集中 在 分 析 对 象 的 改进 、 指 标 改 进 、 
可 视 化 方法 调整 等 方面 站。 但 共 词 分 析 方 法 由 于 难以 
发 现 文档 中 潜在 的 语义 联系 , 无 法 满足 用 户 对 科技 信 
息 深层 次 的 需求 ,在 自然 语言 处 理 领 域 提出 了 LDA X 
题 模型 叫 , 由 于 其 围绕 语义 问题 进行 词 项 分 配 , 很 快 
被 引入 到 科技 文献 的 计量 分 析 之 中 中 1。 并 在 其 基础 上 
形成 一 些 比较 经 典 的 扩展 , 如 AT 模型 5 TOT 模型 加 、 
CTM 模型 中 等 。 

尽管 LDA 在 科技 文献 挖掘 方面 取得 了 一 定 的 成 
绩 , 但 是 传统 LDA 模型 仍然 存在 两 个 明显 的 问题 

(1) LDA 模型 训练 语 料 后 形成 的 主题 之 间 缺 乏 联 
系 。 传 统 LDA 模型 在 解释 文档 时 常常 选择 一 个 概率 分 
布 最 高 的 主题 来 说 明文 档 , 然而 一 个 文档 有 时 候 不 仅 
仅 只 体现 一 个 主题 内 容 , 它 可 能 由 若干 个 主题 构成 ， 
因此 传统 LDA 模型 对 于 这 些 共同 出 现在 文档 中 的 主 


题 的 关系 如 何 , 在 表达 文档 意义 时 哪些 主题 是 更 重要 
HI, 并 未 给 以 解释 ,为 了 表达 主题 之 间 的 关系 , 也 有 一 
些 文献 引入 了 主 成 分 分 析 方 法 和 聚 类 方法 , 将 多 个 维度 
的 主题 压缩 成 两 维 来 计算 , 并 通过 多 维 标 度 来 展示 5 9。 
其 中 聚 类 的 距离 测度 采用 KL 距离 (Kullback-Leibler 
Divergence)^?!.. JSD(Jensen-Shannon Divergence) "1、 
余弦 相似 度 亚 方法 来 实现 。 这 些 文献 存在 的 问题 是 主 
成 分 分 析 方 法 将 高 维 数据 压缩 成 两 维 数据 来 处 理 ， 忽 
略 了 高 维 数据 的 复杂 性 。 聚 类 中 距离 测度 到 底 要 选择 
哪 种 方法 存在 困扰 。 复 杂 网 络 很 好 地 照顾 到 了 高 维 数 
据 的 需要 ,也 能 够 利用 社区 分 割 方法 完成 数据 的 聚 类 
问题 。 因 此 在 探测 主题 关系 时 , 根据 主题 在 文档 中 的 
共 现 情况 , 构建 文档 -主题 二 分 图 网 络 ， 并 通过 投影 形 
成 主题 网 络 , 实现 对 主题 关系 的 探测 。 主 题 模型 和 复 
杂 网 络 结合 的 文献 较 少 , 文献 [10] 和 文献 [15] 把 合作 网 
络 中 的 每 个 用 户 看 作文 档 ， 每 个 用 户 的 所 有 合作 者 看 
作 该 文档 的 词 项 , 使 用 主题 模型 的 方法 处 理 合作 网 络 
用 户 的 聚 类 问题 , 这 些 网 络 数据 属于 LDA 模型 的 语 料 
准备 。 文 献 [16] 将 复杂 网 络 社区 分 割 的 模块 度 作 为 隐 
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中 。 在 “统计 学 习 " 主 题 中 , STA”, fen, pU 


形变 量 以 增强 LDA 模型 的 性 能 , 与 AT BERI, TOT H 


型 的 性 质 类 似 , 对 生成 的 主题 关系 并 未 进一步 讨论 。 

Q) 传统 LDA 模 型 的 主题 词 项 构成 中 经 常会 存在 一 
些 不 重要 的 , 甚至 是 不 太 有 关联 的 词 项 。 模 型 输出 结果 
需要 领域 专家 来 确定 和 修改 哪些 词 项 是 有 意义 的 [7 
无 法 自动 完成 词 项 的 选择 5 ”0， 后 来 有 一 些 模型 通过 
引入 一 些 外 在 的 隐 性 变量 来 增强 构成 主题 的 词 项 的 精 
度 , 例如 AT 模型 引入 作者 这 个 隐形 变量 以 增强 LDA 
模型 的 精度 。TOT 模型 引入 时 间 因 素 , 将 时 间 看 作 连 
续 的 可 观测 变量 来 增强 词 项 精度 。 但 由 于 这 些 扩展 模 
型 与 LDA 的 生成 机 制 是 一 样 的 , 产生 的 主题 词 项 中 依 
旧 无 法 避免 存在 不 太 关联 的 词 项 。 


些 词 项 就 有 很 高 的 概率 ,而 “统计 学 习 ” 和 “机 器 学 习 ” 
主题 就 反映 在 P(z) 中 。 事 实 上 , 这 种 文章 由 若干 主题 
构成 , 若干 主题 又 由 词 项 构成 的 情况 是 一 个 标准 的 贝 
叶 斯 分 类 问题 。 给 定 D 个 文档 , 这 些 文档 包含 T( 通 过 
反复 试验 等 方法 事先 给 定 ) 个 主题 且 这 些 主题 又 由 词 
汇 表 中 W 个 独立 的 词 项 构成 。 其 中 ，P(w |]z) 表示 每 个 
主题 与 词汇 表 中 的 W 个 词 项 的 一 个 多 项 分 布 相对 应 ， 
将 这 个 多 项 分 布 记 为 中 , 即 P(w|z=j)= DW) 。 语料库 
中 的 D 篇 文档 与 T 个 主题 的 一 个 多 项 分 布 相对 应 , 将 
该 多 项 分 布 记 为 6 ， 对 于 给 定 文档 D 中 的 某 个 d 来 说 ， 
P(z-j)- 00? 。 给 定 词 项 w- (wi, wo, …, wa), 其 中 每 


t 针对 传统 LDA 存在 的 问题 , 本 文 将 完成 两 项 NN ba 
B us 一 组 wi 属于 特定 文档 d, 对 文档 d 中 的 每 一 个 词 项 
= l " " " i i 十 应 的 多 项 了 一 个 主题 

q (1) 通过 文档 -主题 一 分 图 投影 构建 共 主题 网 络 , 通 ， Pa 
S|。 区 分 制 和 中 心 必 测度 控 测 主题 关系 和 重要 主题 ， AE a o ile usn d 
e Q) REEE, Hin SEEE — a 和 放下 Na 六 
Pi d 的 词 项 总 数 。 为 了 求解 出 主题 ,两 个 参数 需要 推 


词 项 。 
2 理论 与 方法 


2.4 LDA 主题 模型 

LDA 主题 模型 是 一 种 非 监 督 的 机 器 学 习 方法 ， 
采用 词 袋 (Bag of Words) 表 示 的 方法 , 这 种 方法 将 每 一 
篇 文档 视 为 一 个 词 频 向 量 ， 从 而 将 文本 信息 转化 为 易 
于 建 模 的 数字 信息 。LDA 的 建 模 方式 认为 每 一 篇 文档 
代表 了 一 些 主题 所 构成 的 一 个 概率 分 布 ， 而 每 一 个 主 
题 又 代表 了 很 多 词 项 所 构成 的 一 个 概率 分 布 。 如 果 有 
T 个 主题, 则 给 定 文档 中 wi 词 项 的 概率 如 下 : 

PCwi) -pe zi - P(z; - (1) 

其 中 ，zi 是 潜在 变量 , 表明 第 i 个 词汇 w 是 从 该 
主题 得 出 的 。P(wilz — 3) 是 词汇 wi 属于 主题 j 的 概率 ， 
P(z; =j) 给 出 主题 j 属于 当前 文本 的 概率 。 直 观 上 ， 
P(w |z) 揭示 的 是 哪些 词 对 一 个 主题 是 重要 的 ， 而 P(z) 
是 在 一 个 文档 中 的 主题 分 布 。 主 题 的 内 容 反映 在 
P(w|z) 中 , 一 篇 文章 的 构成 依赖 于 主题 分 布 P(z) 。 例 
如 一 个 期 刊 在 “统计 学 习 ” 和 “机 器 学 习 ” 栏 目 中 发 布 
若干 论文 , 那么 就 认为 词 项 的 概率 分 布 是 围绕 “统计 
EI RI BOR E 2J" B9, 它 的 主题 内 容 反 映 在 P(w|z) 


现代 图 书 情报 技术 


Ir: “文档 -主题 ”分布 9 、“ 主 题 - 词 项 分布。 推断 方 
法 主要 有 EM 算法 和 Gibbs 抽样 法 。 
2.2” 共 主题 网 络 构 建 

(1) 文档 -主题 二 分 图 及 其 投影 

大 多 数 网 络 是 由 一 种 节点 类 型 组 成 的 单 模式 网 
络 , 事实 上 还 存在 一 种 二 分 图 网 络 ,这 种 网 络 的 节点 
属于 不 同 的 节点 集 , 边 是 由 这 些 不 同类 型 的 节点 集合 
中 的 节点 连接 在 一 起 的 。 针 对 文档 -主题 二 分 图 网 络 ， 
其 中 一 种 节点 类 别 是 文档 , 一 种 节点 类 别 是 主题 。 对 
文档 -主题 二 分 图 网 络 进 行 形式 化 : 设 G=<V, E> H 
XUY 2V,XfY 26, 使 得 G 的 每 条 边 的 两 个 端点 一 
个 属于 X, 一 个 属于 YY 记 为 <X, Y, E>。 其 中 X 代表 文 
档 ,Y 代 表 X 文 档 选 取 的 那些 主题 ,选择 规则 是 选取 文 
档 X 中 大 于 平均 概率 的 主题 作为 代表 文档 的 主题 来 构 
建文 档 -主题 二 分 图 网 络 。 

二 分 图 网 络 如 果 不 做 转化 很 少 能 够 被 分 析 ,， 是 由 
于 大 多 数 网 络 的 测度 手段 为 单 模式 图 设计 ， 只 有 很 少 
的 一 些 设计 是 解决 二 分 图 的 ,因此 需要 将 二 分 网 投影 
为 单 模式 图 。 节 点 集 X 的 投影 规则 为 : 如 果 节 点 集 X 
中 的 任意 两 个 节点 与 节点 集 Y 中 的 某 个 节点 都 相连 ， 
那么 就 让 节点 集 X 的 这 两 个 节点 连 边 。 节 点 集 Y 的 投 
影 规则 反之 亦 然 。 二 分 图 及 其 投影 如 图 1 gros ， 其 中 


二 分 图 为 (a), XX 节点 投影 为 (b),Y 节点 投影 为 (c)。 


图 1 二 分 图 及 其 投影 
单 模式 图 投影 方法 非常 实用 并 被 广泛 使 用 , 但 是 
它 的 构造 方式 丢失 了 很 多 原始 二 分 网 络 结构 包含 的 信 
息 。 在 映射 中 只 是 将 同类 的 两 个 顶点 做 了 连接 , 却 没 
有 考虑 这 两 个 顶点 到 底 属 于 多 少 个 群 组 。 通 过 给 投影 


赋予 权重 ,可 以 在 投影 中 保留 这 类 信息 。 通 常 是 将 投 
影 网 络 中 的 两 个 顶点 间 边 的 权重 设置 为 它们 共同 属于 
的 另 一 个 群 组 的 数目 上 ; Newman 在 科学 家 -论文 二 分 
图 转化 为 科学 家 单 模式 图 中 认为 ， 群 组 数目 忽略 了 作 
者 的 贡献 程度 , 作者 的 权重 应 该 随 着 一 篇 论文 合 著作 
者 数量 的 不 同 而 有 所 不 同情 ; Zhou 等 认为 Newman 的 
方法 外 忽略 了 独 著作 者 在 投影 中 的 重要 性 , 他 从 资源 
分 配 的 影响 出 发 设计 二 分 图 投影 后 的 权重 情 ] 。 

本 文 的 投影 规则 是 将 主题 作为 一 个 节点 ， 两 个 主 
题 如 果 出 现在 同一 个 文档 之 中 , 则 在 这 两 个 主题 之 间 
建立 一 个 连 边 , 说 明 这 两 个 主题 存在 相关 关系 ,如 果 
一 个 文档 有 n 个 主题 , 那么 就 产生 n(n-1)/2 种 两 两 相 
关 关 系 。 当 两 个 特定 的 主题 Tl 和 T2 同时 出 现在 多 个 
文档 中 时 ,对 TI 和 T2 不 再 重复 连接 , 但 这 样 二 分 图 
中 的 文档 节点 就 被 忽略 了 。 为 了 在 投影 中 反映 二 分 图 
的 文档 节点 , 同时 又 反映 主题 之 间 联 系 的 紧密 程度 ， 
设 定 主题 Tl1 和 T2 之 间 的 权重 如 下 : 


WriT2 zy n (2) 
kci nx 7l 
HP, g 表示 文档 数目 ， 当 主题 TI 在 文档 k 中 出 
现时 , Sh 等 于 1, 否则 为 0; nk 表示 文档 k 的 主题 数目 。 
图 2 是 该 定义 的 一 个 示例 , 主题 TI 和 T2 在 三 个 文档 
中 都 出 现 过 ， 其 中 第 一 个 文档 有 4 个 主题 , 第 二 文档 
有 2 个 主题 , 第 三 个 文档 有 3 个 主题 , 于 是 TI 和 T2 


广 | ”Vi 人 人 [人生 甘 日 工 | 上 | 
CI n aX VO 1 m HH T lJ 


A 


总 第 272/273 期 2016 年 第 7/8 期 


在 三 个 文档 中 的 关系 强度 分 别 是 /3、1、1/2, 所 以 TI 
和 T2 总 的 关系 强度 是 1/3 + 1 + 1/2 = 11/6, 这 一 关系 
强度 就 是 主题 T1 和 T2 连 边 的 权重 。 依 照 这 种 投影 计 
算 规 则 ， 对 主题 进行 单 模式 图 投影 ,生成 加 权 的 共 主 


题 网 络 。 


文档 1 || xeo | | xem | 


(C 


1/3 十 1 十 1/2 = 11/6 
图 2 主题 权重 示例 


Q) DAERA 

共 主 题 网 络 节点 重要 性 探测 由 两 方面 构成 : 基于 
拓扑 结构 的 共 主 题 网 络 的 节点 中 心性 ; 基于 LDA 模 型 
训练 的 基于 词 项 分 布 的 主题 概率 大 小 。 节 点 中 心性 的 
探测 有 度 中 心性 、 介 数 中 心性 、 接 近 中 心性 、 特 征 向 
量 中 心性 、k- 壳 与 k- 核 中 。 本 文采 用 介 数 中 心性 和 主 
题 自身 的 词 项 概率 分 布 来 探测 主题 的 重要 程度 。 之 所 
以 将 两 种 相 结合 是 因为 介 数 中 心性 解决 的 是 任何 一 个 
节点 达到 其 他 节点 的 最 短路 径 必然 要 经 过 的 节点 。 介 
数 中 心 三 点 起 到 建立 其 他 节点 彼此 关系 的 作用 , 显然 
地 位 是 非常 重要 的 。 但 是 仅仅 有 介 数 中 心性 ， 就 无 法 
体现 其 他 节点 自身 的 重要 性 ， 因 为 网 络 中 很 多 节点 本 
身 并 不 担当 连接 其 他 节点 桥梁 的 作用 ,因此 节点 自身 
的 非 拓扑 性 质 的 重要 性 需要 体现 。 针 对 主题 网 络 而 言 ， 
这 个 非 拓扑 属性 就 是 构成 主题 内 容 的 词 项 的 概率 分 
布 。 因 此 在 计算 共 主 题 网 络 中 主题 节点 的 重要 程度 时 ， 
本 文 将 介 数 中 心性 和 词 项 的 概率 分 布 结合 在 一 起 。 节 
点 Vi 的 介 数 中 心性 是 网 络 中 所 有 最 短路 径 中 经 过 该 
点 的 数量 , 公式 如 下 : 


BO= Y, eO G) 


uxwzxi Cuw 


Hh, ow 是 节点 Vs 和 Vw 之 间 的 最 短路 径 数 量 ， 
Suy O) 是 经 过 节点 Vi 的 Vs 和 V 之 间 的 最 短路 径 数 
量 。 介 数 越 高 ， 则 节点 越 处 于 中 心地 位 。 当 一 个 节点 
不 在 任何 一 条 最 短路 径 上 时 , 其 中 心性 为 0。 
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应 用 认 


节点 Vi 的 主题 词 项 概率 分 布 公式 如 下 : 


maxBetweennessValue = C, y 
if maxBetweennessValue > u then 


P)- * Oai (4) E(G) = E(G) - {maxBetweennessEdge} 
dzl else 
HP, Oa 为 文档 d 的 话题 主题 节点 Vi 的 多 项 式 Break out pf loop 
VEP SA end 
分 布 , D 为 文档 集合 。 M 


最 终 共 主题 网 络 中 的 主题 节点 强度 由 介 数 中 心 
性 、 主 题 节 点 概率 分 布 共同 构成 。 由 于 数据 之 间 量 纲 
的 不 相同 , 采用 Min-Max 标准 化 将 其 转化 为 无 量 纲 的 
纯 数 值 ， 公式 如 下 : 


V, =c( B(i)- min(B(i)) " Pi) - min(P(1)) ) (5) 
: max(B(i)- min(B(i)  max(P(i))- min(P(i)) 


其 中 , e 为 调节 系数 , 调节 主题 节点 的 可 视 化 显示 


return Connected components of modified G 

由 于 GN 算法 是 反复 迭代 寻找 边 介 数 最 大 的 值 并 
移 除 ， 因 此 无 法 判断 算法 终止 位 置 ， 而 且 还 会 重复 计 
Ah eiie, 时 间 复 杂 度 高 。 理 论 上 无 法 自动 
确定 最 后 会 分 割 为 多 少 个 社区 。 社 区 的 确定 需要 对 效 
值 进 行 调试 。 因 此 需要 有 一 种 度量 的 方法 , 判断 不 
HNE p 下面 产 生 的 结果 是 不 是 最 佳 的 结果 。 为 此 


S 大 小 。 主 题 网 络 中 主题 节点 的 面积 大 小 取决 于 Vi 的 。 Nowman 引入 了 模块 度 Q 的 概念 来 评价 社区 结构 划分 
O) [B 从 公式 (5) 可 以 看 出 Vi RK, 主题 重要 程度 越 高 ， 的 质量 中 但 模块 度 口 能 用 来 衡量 一 个 社区 的 划分 
"T LH — He "M das CoD 

O 在 主题 网 络 中 主题 节点 显示 的 面积 也 就 越 入。 是 不 是 相对 比较 好 , 之 所 以 说 相对 是 因为 准确 最 优 的 


(3) 共 主 题 网 络 聚 类 

尽管 共 主 题 网 络 通过 边 权 关系 揭示 了 主题 节点 之 
间 的 关系 , 突出 了 哪个 主题 是 重要 的 , 但 它们 揭示 的 
是 两 两 主题 之 间 的 关系 。 而 多 个 主题 是 否 同属 一 种 类 
别 需要 通过 聚 类 进行 揭示 。 针 对 共 主 题 网 络 ， 本 文采 
取 社 区 分 割 技术 。 对 社区 结构 进行 划分 常用 的 方法 有 
两 类 : 图 论 算法 (包括 谱 平 分 法 、 随 机 游 走 算法 、 派 系 
过 滤 法 等 ) 和 层次 聚 类 算法 (凝聚 算法 和 分 裂 算法 )。 前 
者 的 代表 为 基于 贪 焚 算 法 思想 的 凝聚 算法 ,也 称 CNM 


算法 所 ;后 者 的 代表 为 基于 边 介 数 的 GN E, CNM 


算法 适用 于 大 规模 网 络 的 社区 分 割 , GN 算法 只 适用 于 
中 小 型 规模 的 网 络 。 由 于 共 主 题 网 络 节点 边 数 少 , 所 
以 采用 GN 算法 实现 社区 分 制 。GN 算法 是 一 种 分 裂 
型 的 社区 结构 发 现 算法 。 该 算法 根据 网 络 中 社区 内 部 
高 内 聚 、 社 区 之 间 低 内 聚 的 特点 , 逐步 去 除 社区 之 间 
的 边 , 取得 相对 内 聚 的 社区 结构 。 算 法 用 边 介 数 的 概 
念 探测 边 的 位 置 ， 计 算 所 有 边 的 介 数 中 心 度 ， 最 高 介 
数 的 边 被 移 除 , 反复 迭代 计算 剩 下 的 边 介 数 直到 边 介 
数 低 于 某 个 阔 值 上 ,算法 停止 。 伪 代码 如 下 : 


Input: A weighted or unweighted graph G = (V, E) , Threshold pu 


Output: A list of clusters 
while [E(G)| >0 do 
C, v - betweenness centrality of edge (u, v) 
Calculate Cu v for all (u, vy) € E(G) 
maxBetweennessEdge = (x, y) : Cx, y is minimum over all (x, y) 
in E(G) 
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模块 度 优 化 算法 在 计算 上 是 困难 的 中。 因此 , 在 计算 
模块 度 Q 值 时 , Q 取 值 最 大 的 时 候 就 认为 是 网 络 较 理 
想 的 划分 。Q 值 的 范围 在 0-1 之 间 ，Q 值 越 大 说 明 网 
络 划 分 的 社区 结构 准确 度 越 高 。 模 块 度 Q 的 计算 公 
式 如 下 : 


kk; 
a- Ila- J 8(cic) (6) 
LJ 


2m 


其 中 ，Ai 是 i 行 j 列 邻接 矩阵 A 的 元 素 。k; 是 连 
接 到 节点 i 的 度 ，k; 是 连接 到 节点 j 的 度 。ci,c; 表 示 
节点 i 和 j 所 在 的 两 个 社区 。 如 果 i 和 j 在 同一 个 社区 ， 


" 1 
DUDEN =], 否则 6(ci,cj) —0, m-72 Ai 为 


网 络 中 边 的 总 数 。GN 算法 直接 对 模块 度 Q 值 进行 最 
优化 以 寻找 最 佳 社区 结构 , 它 以 使 Q 值 增 大 最 快 或 减 
少 最 慢 为 目标 将 社区 一 步 一 步 地 融合 。 在 这 个 过 程 中 
会 出 现 Q 的 峰值 Qna 其 中 Qu 对 应 的 社区 结构 就 是 
最 佳 社区 结构 。 
2.3 ”主题 词 项 优化 

LDA 主题 模型 主要 是 对 两 个 参数 进行 推断 :“ 文 
档 - 主 题 ” 分 布 9 和 “主题 - 词 项 "分布 @。 共 主 题 网 络 解 
决 的 是 6 的 关系 问题 , 由 于 共 主 题 网 络 中 的 节点 主题 
词 项 依赖 于 中 , 因此 中 的 优化 直接 决定 了 节点 主题 的 
被 解释 情况 。 传 统 主题 模型 训练 后 的 主题 里 经 常会 存 
在 一 些 不 重要 的 ， 甚 至 是 不 太 相关 的 词 项 。 因 此 模型 


输出 结果 需要 领域 专家 来 确定 和 修改 那些 词 项 是 有 意 
义 的 。 当 前 主题 质量 评价 完全 依赖 专家 对 给 定 主题 
词 项 的 甄别 。 为 了 提高 自动 选择 主题 词 项 的 能 力 ,， HE 
除 构成 主题 中 的 某 些 不 相干 的 词 项 , 文献 [30] 使 用 一 
种 称 为 提升 度 法 (Lifb 的 内 在 度量 方法 来 排序 主题 中 
的 词 项 , 该 提升 度 法 被 定义 为 某 个 主题 中 的 词 概率 占 
据 该 词 项 在 整个 语 料 中 边际 概率 的 比率 。 文 献 [31] 根 
据 词 项 在 主题 中 出 现 的 频率 和 独占 性 进行 排序 。 文 献 
[9] 结 合 提 升 度 和 独占 性 方法 提出 一 种 相关 度 方法 
(Relevance)， 其 中 某 个 词语 主题 的 相关 性 由 入 参数 来 
调节 。 如 果 入 接近 1, 那么 在 该 主题 下 频繁 出 现 的 词 和 
主题 更 相关 , 正 是 文献 [30] 所 讨论 的 ; 如 果 入 越 接近 0, 
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(3) 使 用 tm 包 构 建文 档 - 词 频 矩 阵 , 并 通过 TF-IDF 
优化 特征 词 。 后 续 研究 是 基于 这 个 词 频 和 矩阵 开展 的 。 
3.2” 共 主题 网 络 分 析 

为 了 构建 主题 网 络 , LDA 必须 给 出 一 个 主题 的 最 
优 数 目 。 一 般 主 题 数目 都 是 经 验 给 定 的 , 经 验 给 定 的 
问题 在 于 设 定 的 主题 数目 少 了 则 不 能 全 面 表示 文档 ， 
设 定 的 主题 数目 多 了 则 主题 重复 。 因 此 在 求证 主题 数 
目 时 大 多 使 用 自动 发 现 主题 数目 的 方法 。 目 前 有 几 种 
自动 发 现 文档 中 最 优 主题 的 方法 , 包括 贝 叶 斯 统计 中 
的 标准 方法 中、KL 距离 法 时、 余弦 相似 度 法 中 !、JSD 
107, 由 于 贝 叶 斯 标准 统计 方法 的 简洁 和 计算 的 效率 ， 


那么 该 主题 下 特殊 、 独 有 (Exclusive) 的 词 和 主题 更 相 
关 , 正 是 文献 31 所 讨论 的 .考虑 到 文献 [9] 在 主题 词 项 
产生 中 的 精度 ,因此 构建 主题 词 项 网 络 节点 所 需要 的 
词 项 由 主题 词 项 相关 性 构建 , 公式 如 下 : 


r(w, kp.) =Xlog(brw) + (1-4) loge) (7) 


其 中 ,入 决定 了 词 项 w 在 共 主 题 网 络 节 点 k 中 关 
乎 其 提升 度 的 权重 。 如 果 和 =0, 那么 词 项 完全 由 其 提 
升 度 决定 ， 即 由 词 项 在 主题 中 的 概率 由 w 占据 词 项 在 
整个 文档 中 的 概率 pw 的 比率 决定 。 如 果 入 =1, 则 词 项 
排序 完全 由 主题 中 词 项 概率 Pw 决定 , 文献 [9] 中 建议 
取 入 =0.6。 


3 ” 共 主 题 网 络 在 《大 学 图 书馆 学 报 》 中 的 
vA 


3.1 题 录 数 据 获 取 及 预 处 理 

利用 中 国 知 网 的 “中 国学 术 期 刊 网 络 出 版 总 库 ” 
检索 期 刊 名 称 为 “大 学 图 书馆 学 报 ” 时 间 为 1989 年 
-2015 年 ,为 了 计算 的 便利 , 按照 年 度 对 下 载 的 题 录 文 
件 进行 合并 , 形成 27 个 年 度 文档 ,每 个 文档 按照 年 进 
行 编号 。 每 个 文档 由 若干 记录 构成 , 该 记录 包含 题目 、 
作者 、 单 位 、 关 键 词 、 摘 要 等 。 为 了 分 析 从 1989 年 到 
2015 年 期 刊 关 注 的 核心 研究 主题 ,选取 题 录 文献 的 标 
题 、 关 键 词 、 摘 要 进行 研究 。 步 又 如 下 : 

(1) 对 27 个 文件 做 循环 读 取 ; 

(2) 通过 Rjieba 分 词 包 对 标题 、 关 键 词 、 摘 要 做 
分 词 处 理 , 利用 正则 表达 式 清理 不 相干 字符 (连接 符 、 
空 值 、 数 字 等 ); 


已 经 被 大 量 的 研究 所 使 用 ,因此 本 实验 采用 该 方法 。 
计算 方法 见 公 式 (8) 和 公式 (9), 结果 如 图 3 所 示 。 
P(w|z) = rem E DEA: dka (8) 
T(BV) ka TẸ +Vp) 

Hep, nO? EENET z 中 被 分 配 到 第 k 个 主 
题 的 单词 w 的 频次 。T(.) 是 标准 的 Gamma. PR, nO 
是 分 配给 主题 k 的 所 有 词 数 。 P(w|T) 可 以 近似 为 一 系 
JJ Pw |z) 的 调和 平均 数 , 计算 公式 为 : 


1 M 
P(w|T) 2 — Y, Pawi) (9) 
M 一 
m-l1 
"Di 
e 
£ -175000: 
E 
E 
E 
S -1800001 
8 
8 
o 
= —185000- 
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E 
© 
E 
£ -190000: 
0 20 40 60 


Number of Topics (Optimal Number.28) 
图 3 调和 平均 数 求 解 最 优 主题 数 


选取 k=28 为 最 大 主题 数量 , 建立 27 行 28 列 的 “ 文 
H-E EOT), 这 个 矩阵 在 LDA 中 被 命名 为 9， 
其 中 了 为 文档 , T 为 主题 , XBIEPTACN T fk D 中 的 词 
项 概率 分 布 。 按照 LDA 的 训练 要 求 , 每 个 文档 d 都 是 
由 k 个 主题 构成 的 , 但 是 根据 k 的 概率 分 布 情况 ,总 是 
有 若干 个 重要 的 主题 是 代表 这 个 文档 的 ， 因 此 需要 选 
取代 表 文 档 d 的 主题 ,并 对 它们 进行 分 析 。 选 择 规则 
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是 选取 文档 d 中 大 于 平均 概率 的 主题 作为 代表 该 文档 
的 主题 来 构建 文档 -主题 二 分 图 ,文档 主题 选取 结果 如 
表 1 所 示 : 


表 1 选取 的 文档 主题 (部 分 ) 


文档 (D) 主题 (T) 
1989 T4 , T23 , T26, T27 
2000 T12 , T23 , T26, T27 
2014 T13, T14 
2015 T13, T28 


对 表 1 中 数据 进行 二 分 图 构建 , 得 到 文档 -主题 二 
分 图 ， 如 图 4 所 示 : 


E 
969500609 

图 4 文档 -主题 二 分 图 
为 更 好 地 说 明 主 题 网 络 中 节点 的 聚 类 情况 , 利用 
GN 算法 对 主题 网 络 进行 社区 分 割 , 通过 模块 度 Q A 
断 不 同 阔 值 站 下 产生 的 社区 分 割 是 不 是 最 优 , 在 迭代 


运算 的 倒数 第 2 次 时 模块 度 达 到 最 高 的 0.4904142, 社 
区 因此 被 自动 切 分 为 两 个 社区 ， 如 图 5 所 示 : 


图 5 共 主 题 网 络 
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共 主 题 网 络 中 重要 节点 为 T13, T3. T9. T23. 
共 主 题 网络 节 点 之 间 的 权重 越 大 , 说 明 它 们 在 揭示 文 
档 时 共同 出 现 的 机 会 越 多 , 联系 越 紧 密 。 节 点 的 面积 
越 大 , 说 明 在 文档 解释 中 重要 性 越 大 。 例如 T13 和 T9 
的 边 权 较 大 , 说 明 它 们 在 文档 中 共同 出 现 的 机 会 很 大 ， 
而 且 它们 在 网 络 中 的 节点 面积 也 很 大 ,说 明 它 们 是 代 
表 文档 的 重要 主题 。 为 了 更 加 清晰 地 揭示 主题 重要 程 
HE, 对 T13、T3 、T9 T23 中 的 前 30 个 主题 词 项 云 进 
行 观察 ， 如 图 6 所 示 : 


SIX ga p 
ape t s 


T9 T23 
图 6 重点 主题 节点 的 主 词 项 分 布 


可 以 看 出 , 数字 、 服 务 质量 、 图 书馆 自动 化 等 逐 
渐 成 为 《大 学 图 书馆 学 报 》 期 刊 关注 的 重点 。 
3.3” 共 主题 网 络 与 基于 JSD 的 K-means 比较 

Kim 等 比较 了 余 纺 相似、Jaccard 系数 、Kendall 
tT% DCG 指标 、KL 距离 、JSD 等 测度 指标 , 结果 
显示 JSD 在 主题 距离 测度 上 表现 最 好 请。 为 了 显示 共 
主题 网 络 在 主题 关系 以 及 主题 重要 节点 探测 方面 的 能 
力 , 将 其 与 表现 最 好 的 基于 JSD 的 均值 聚 类 进行 比 
dx, 观察 共 主 题 网 络 的 可 视 化 与 基于 JSD 的 多 维 标 度 
展示 的 聚 类 可 视 化 情况 。JSD 是 一 种 基于 KL 距离 的 
度量 方法 , 改善 了 KL 距离 的 不 对 称 问 题 ,成 为 概率 主 
题 的 常用 测度 方法 。 任 意 两 个 主题 T, 与 TUÉS] JSD W 
度 公式 如 下 : 


E: EXON 
ISD l6 = (2, (oC) lo $00 0) 


2x6 (x) 
log ———3à4-——— 
A e ee 0" 


)4 
(10) 


为 了 观察 JSD 测度 结果 和 共 主 题 网 络 测度 结果 是 
否 一 致 ， 分别 选 择 最 优 主 题 数 28 和 主观 选择 的 主题 数 
30、20 这 三 个 数目 进行 测试 。 对 它们 进行 共 主 题 网 络 
IAT, 其 中 社区 分 割 的 Q 值 融 合 如 图 7 所 示 : 


T 
0 5 10 15 


20 25 30 
融合 次 数 
图 7 主题 网 络 Q 值 融合 


黑色 线 为 最 优 主题 数 28 的 情况 , 红色 线 和 蓝 色 线 
分 别 为 主题 数 30 和 20 的 情况 。 它 们 在 Q 值 融 合 到 倒 
数 第 2 次 时 达到 最 大 值 ， 见 红色 圆圈 处 。 说 明 这 三 个 
主题 数目 构成 的 共 主 题 网 络 都 会 聚 类 成 两 个 社区 。 最 


后 共 主 题 网 络 的 可 视 化 结果 如 图 8 上 半 部 分 所 示 。 


K-means 聚 类 对 比 


图 8 


使 用 基于 JSD 的 K-means 聚 类 同样 测度 28 、30、 
20 三 种 主题 数 ， 如果 JSD 测度 下 的 K-means RFH 
主题 网 络 下 的 聚 类 结果 一 致 ,那么 就 可 以 判断 共 主 题 


斑 上 inm”AVi、 人 人 人生 甘 日 工 | 
ChinaXiv 合 作 期 刊 


AE 


& X 272/213 期 2016 4E  *& 7/8 期 


D 


网 络 的 聚 类 是 可 行 的 。 判 断 基 于 JSD 的 K-means RÆ 
的 数目 是 否 与 模块 度 划 分 的 聚 类 数目 一 致 。 基 于 JSD 
的 K-means 聚 类 的 数目 通过 轮廓 系数 (Silhouette 
Coefficient 方 法 判断 其 值 在 -1 到 +1 之 间 取 值 , 值 越 大 
表示 聚 类 效果 越 好 , 最 大 值 对 应 的 聚 类 数目 就 是 最 住 聚 
类 数目 59。 依 据 这 个 原理 使 用 多 个 聚 类 数目 ,反复 计 
算 每 个 聚 类 数目 条 件 下 的 轮廓 系数 ， 当 轮廓 系数 取 最 
大 时 ,其 相应 的 聚 类 数目 是 最 好 的 。 通 过 枚 举 , SRK 
数目 k 从 2 到 8, 为 了 避免 局 部 最 优 解 在 每 个 k 值 上 重 
复 运行 25 次 K-means, 并 计算 当前 k 的 平均 轮廓 系数 ， 
最 后 选取 轮廓 系数 最 大 的 值 对 应 的 k 作为 最 终 的 聚 类 
数目 , 计算 结果 如 图 9 Bron: 


0.20 4 
015- X 
x 0.10 + x. 
5 À 
0.05 - 
T T T T T T T 
2 3 4 5 6 7 8 
k 值 


图 9 轮廓 系数 与 k 的 关系 


其 中 , 红色 、 黑 色 、 蓝 色 分 别 表示 30、28、20 个 
主题 , 三 者 的 最 优 k 值 都 是 2， 见 红色 圆圈 标注 处 。 轮 
廓 线 划 分 的 聚 类 主题 与 模块 度 划 分 的 主题 数目 完全 相 
同 。 选 择 k=2 对 主题 数 为 30、28、20 的 主题 进行 聚 类 
(其 中 主题 节点 的 面积 大 小 与 该 主题 的 概率 分 布 值 大 
小 相关 ), 结果 如 图 8 下 半 部 分 所 示 。 分 别 抽取 共 主 题 
网 络 社 区 分 割 和 K-means 聚 类 中 内 容 进 行 比较 ， 发 现 
基于 JSD 的 聚 类 和 共 主 题 网 络 聚 类 的 结果 相似 度 很 
高 , 分 别 为 28(100%)、20(95%)、30(87%)。 比 较 结果 
如 表 2 px, 其 中 的 数字 为 主题 编号 。 


2 ”两 种 方法 聚 类 效果 比较 


E 
共 主 题 网 络 社 区 划分 基于 JSD 的 K-means 聚 类 
主题 数 
HS 1 RX 2 HS 1 HS 2 
3, 4, 7, 10, 11, 12, 20, 23, 25, 1, 2, 5, 6, 8, 9, 13, 14, 15 1, 2, 5, 6, 8, 9, 13, 14, 15 
28 个 “3 4 7, 10, 11, 12, 20, 23, 25, 1, 2, 5, 6, 8, 9, s 14, 15, 3 4 7 10 11 12 20 23 25 26 27 b 96 8$ 9, ,14, 15, 
l 26, 27 16, 17, 18, 19, 21, 22, 24, 28 `’ p TaD 1a 12, 20; 23,23; 26,2 16, 17, 18, 19, 21, 22, 24, 28 


1, 3, 5, 6, 7, 8, 11, 12, 14, 15, 2, 9, 16, 19, 4, 10, 13, 28, 
20, 22, 23, 24, 25, 26, 29 30, 17, 18, 21, 27 


1, 2, 4, 5, 7, 8, 10, 11, 15, 16, 


17,20 3, 6, 9, 12, 13, 14, 18, 19 


4, 10, 13, 28, 30, 17, 18, 27, 
21 


1, 2, 3, 5, 6, 7, 8, 9, 11, 12, 14, 15, 
1 


6, 19, 20, 22, 23, 24, 25, 26, 29 


Ms EA 


1, 4, 5, 7, 8, 10, 11, 15, 16, 17, 20 2, 3,6, 9, 12, 13, 14, 18, 19 
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从 聚 类 结果 来 看 ,最 优 主题 数 28 产生 的 共 主 题 网 
络 社区 划分 的 结果 与 基于 JSD 的 K-means 聚 类 产生 的 
结果 完全 一 样 , 原因 是 最 优 主题 数 中 的 主题 不 重复 ， 而 
主观 选 定 的 30 个 和 20 个 主题 两 种 方法 在 聚 类 时 略 有 一 
点 偏差 , 但 是 大 部 分 是 一 致 的 。 例 如 主题 数 20 的 主题 
在 共 主 题 网 络 聚 类 1 中 主题 2 是 不 一 致 的 , 但 是 通过 观 
察 其 构成 的 词 项 ， 发 现 它 与 和 它 聚 在 一 起 的 其 他 主题 
讨论 的 话题 非常 相似 , 都 是 讨论 图 书馆 数字 化 方面 的 
问题 。 另 外 共 主 题 网 络 由 于 建立 了 节点 之 间 的 边 权 关 
系 , 能够 说 明 哪些 主题 节点 是 共同 出 现在 文档 之 中 来 
解释 文档 的 ， 而 基于 JSD 主题 聚 类 的 方法 只 能 测度 主 
题 是 否 相似 , 却 无 法 解释 主题 之 间 的 这 种 关系 。 而 且 因 
为 有 介 数 中 心性 测度 方法 ,还 能 够 探测 出 哪些 主题 是 
被 大 多 数 文档 共同 使 用 的 , 这 是 JSD 聚 类 做 不 到 的 。 


4 结果 与 讨论 


本 文通 过 共 主 题 网 络 方法 处 理科 技 文献 , 实现 了 
以 下 目标 : 

(1) 建立 主题 之 间 的 网 络 关系 ， 从 而 解决 了 传统 
LDA 生成 的 主题 缺乏 联系 的 问题 ; 

Q) 优化 主题 词 项 选择 ， 并 闭 选 出 与 主题 相关 的 
词 项 , 并 以 词 云 的 形式 可 视 化 展现 。 

共 主 题 网 络 分 析 与 其 他 基于 主 成 分 的 主题 关系 探查 
的 不 同 在 于 照顾 到 了 高 维 数据 的 需要 , 也 不 存在 主题 之 
间距 离 测度 到 底 选 择 什么 方法 的 问题 , 能 够 探查 到 哪些 
主题 之 间 联 系 紧密 且 共 同 出 现在 对 文档 的 解释 中 。 

在 研究 过 程 中 存在 的 不 足 有 : 

(1) 由 于 一 篇 期 刊 文献 不 仅 包含 文本 信息 , 还 包 
括 作者 信息 ， 如 何 结合 主题 和 作者 信息 分 析 主 题 的 演 
变 情况 ? 尽管 目前 AT 模 型 中 进行 了 相关 研究 , 但 其 考 
虑 的 是 单个 作者 研究 几 个 主题 的 问题 。 如 何 考虑 科学 
家 合作 网 络 研 究 的 主题 情况 ,以 便于 找到 这 些 知识 共 
同体 是 后 续 研 究 需 要 探讨 的 ; 

Q) 目前 科技 文献 内 在 结构 分 析 常 用 的 手段 是 共 
词 网 络 " 1 共 主 题 网 络 和 共 词 网 络 的 原理 有 哪些 不 同 ， 
它们 在 科技 文献 分 析 方面 的 联系 与 区 别 是 什么 , 这 些 
问题 也 是 后 续 工 作 要 探讨 的 。 
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New Research and Application with Co-topics Network 


Niu Liang 
(School of Economics & Management, China Jiliang University, Hangzhou 310018, China) 


Abstract: [Objective] This paper builds a co-topics network to analyze the relationship among the topics of research 
articles and then optimize terms representing these topics. [Methods] First, we transformed the “document-topics” 
bipartite Graph to co-topics networks in accordance with weighted projection rules. Second, we identified the key topics 
with the combination of betweenness centrality and topic probability. Third, we divided the co-topics network 
community with the GN algorithm. Finally we optimized topic terms with relevance method. [Results] We compared 
the co-topics networks and the K-means based on JSD by testing optimal topic number (28) and random subjective 
topic numbers(20, 30). Their clustering numbers were the same and the consistent degree of clustering content reached 
10096, 95% and 87%. [Limitations] We did not include other community partition methods with the proposed co-topics 
networks. [Conclusions] The co-topics network meets the demands of high-dimensional data and identifies the key 
topics and the closely linked topics of the target documents. 

Keywords: Co-Topics network LDA . Community partition K-means 
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